研究者警告:强化学习暗藏「策略悬崖」危机,AI对齐的根本性挑战浮现
研究者警告:强化学习暗藏「策略悬崖」危机,AI对齐的根本性挑战浮现强化学习(RL)是锻造当今顶尖大模型(如 OpenAI o 系列、DeepSeek-R1、Gemini 2.5、Grok 4、GPT-5)推理能力与对齐的核心 “武器”,但它也像一把双刃剑,常常导致模型行为脆弱、风格突变,甚至出现 “欺骗性对齐”、“失控” 等危险倾向。
强化学习(RL)是锻造当今顶尖大模型(如 OpenAI o 系列、DeepSeek-R1、Gemini 2.5、Grok 4、GPT-5)推理能力与对齐的核心 “武器”,但它也像一把双刃剑,常常导致模型行为脆弱、风格突变,甚至出现 “欺骗性对齐”、“失控” 等危险倾向。
GPT-5是一次 ChatGPT 产品的重要升级。Routing 能力的加入帮助 ChatGPT 模型第一次把产品线捋顺统一,是 UX 交互的一次重要革新。就像 Apple 决定只推出一款 iPhone 产品线,短期用户可能被迫适应 GPT-5 这个旗舰产品的优缺点,但长期更容易占领用户心智。
上周 GPT 5 的更新,除了激起对 4o 的想念,还激起了对 OpenAI 刀法的埋怨:优先付费用户,优先 API 支持…… 说吧,奥特曼,是不是就想逼我花钱升级?
人不能同时踩两个坑,但 OpenAI 做到了。 GPT-5 发布会上,OpenAI 因为一张比例失调的图表被全网群嘲。后续他们火速更新图表,目前已经调整好了比例。
这个周末,对OpenAI的抗诉,好像从未如此热闹过。 起因自然还是因为GPT-5。 OpenAI上了GPT-5当天,做了一个非常神奇的操作,他们只保留了GPT-5,然后把GPT-4.5、GPT-4o、o3什么的,全都砍掉了。
据知情人士透露,风投公司Andreessen Horowitz 已同意牵头向材料科学人工智能初创公司 Periodic Labs 投资 2 亿美元。
GPT-5 上线之后,吐槽声一片。眼看舆论越来越不对劲,今天凌晨 OpenAI CEO 山姆·奥特曼(Sam Altman)紧急出来救火,发长文回应各种吐槽。
备受 AI 圈关注的首届谷歌 Kaggle AI Chess 大赛(也即大模型国际象棋对抗赛)迎来了最终赢家。就在昨天,Grok 4 携手 OpenAI o3 进入了决赛。在机器之心的投票中,大家更倾向于 o3 战胜 Grok 4。
明天,Grok 对阵 OpenAI 的 o3。 谁也没想到,谷歌攒的 Kaggle AI Chess 比赛(即大模型国际象棋对抗赛),在半决赛中,Grok 4 击败 Gemini 2.5 Pro,进入总决赛!
gpt-oss-120b 和 gpt-oss-20b OpenAI终于把开源的模型放出来了。 gpt-oss系列也是自GPT2以来,OpenAI首次开源的大语言模型。